检索结果

Select

1. 基于语义扩展的短问题分类

冶忠林, 杨燕, 贾真, 尹红风

计算机应用 2015, 35 (3): 792-796. DOI: 10.11772/j.issn.1001-9081.2015.03.792

摘要（566）

PDF （789KB）（556）

问题分类是问答系统任务之一。特别是语音交互方式中,用户的提问较短,具有口语化特征,利用传统文本分类方法对问题进行分类的效果不佳。为此提出一种基于语义扩展的短问题分类方法,该方法使用搜索引擎对问题进行知识扩展;然后,使用主题模型进行特征词选择;最后,利用词语相似度计算获取问题的类别。实验结果表明,所提方法在1365条真实问题集上平均F-measure值达到0.713,其值高于支持向量机(SVM)、K近邻(KNN)算法和最大熵方法。因此,该方法在问答系统中可以帮助系统提升问题分类的准确率。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于规则的汉语兼类词标注方法

李华栋贾真尹红风杨燕

计算机应用 2014, 34 (8): 2197-2201. DOI: 10.11772/j.issn.1001-9081.2014.08.2197

摘要（209）

PDF （746KB）（358）

针对目前汉语兼类词标注的准确率不高的问题，提出了规则与统计模型相结合的兼类词标注方法。首先，利用隐马尔可夫、最大熵和条件随机场3种统计模型进行兼类词标注；然后，将改进的互信息算法应用到词性(POS)标注规则的获取上，通过计算目标词前后词单元与目标词的相关性获得词性标注规则；最后，将获取的规则与基于统计模型的词性标注算法结合起来进行兼类词标注。实验结果表明加入规则算法之后，平均词性标注准确率提升了5%左右。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于弱监督的属性关系抽取方法

杨宇飞戴齐贾真尹红风

计算机应用 2014, 34 (1): 64-68. DOI: 10.11772/j.issn.1001-9081.2014.01.0064

摘要（498）

PDF （776KB）（560）

针对从中文百科中抽取属性关系时所面临的训练语料匮乏问题,提出一种利用极少人工参与的弱监督自动抽取方法。首先,利用中文百科条目信息模板中的半结构化属性关系回标条目文本自动获取训练语料;然后,根据朴素贝叶斯分类原理优化训练语料;最后,基于条件随机场(CRF)建立属性关系抽取模型。在互动百科中采集的数据集上进行实验,综合评价F值达到了80.9%。结果表明该方法能够获得质量较高的训练语料,并取得良好的抽取性能。